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摘 XE: 针对 大 数据 环境 下 并 行 深度 卷 积 神经 PADON A E 数据 宛 余 特征 多 、 卷 积 层 运算 速度 慢 、 损 失 
函数 收敛 性 差 等 问题 ， 提 出 了 一 种 基于 Im2col 方法 的 并 行 深度 卷 积 神经 网 络 优化 算法 IA-PDCNNOA。 首 先 ， 提 
出 基于 Marr-Hildreth 算 子 的 并 行 特征 提取 策略 MHO-PFES， 提 取 数 据 中 的 目标 特征 作为 卷 积 神经 网 络 的 输入 ， 有 
效 避 免 数据 宛 余 特 征 多 的 问题 其次， 设计 基于 Im2col 方法 的 并 行 模型 训练 策略 IM-PMTS， 通 过 设计 马 氏 距离 中 
心 值 去 除 宛 余 卷 积 核 ， 并 结合 MapReduce 和 Im2col 方法 并 行 训 练 模型 ， 提 高 了 卷 积 层 运算 速度 ; 最 后 ， 提 出 改进 

的 小 批量 梯度 下 降 策略 IM-BGDS， 排 除 异 常 节点 的 训练 数据 对 批 梯度 的 影响 ， 解决 了 损失 函数 收敛 性 差 的 问题 。 
实验 结果 表明 ，IA- PDCNNOA 算法 在 大 数据 环境 下 进行 深度 卷 积 神经 网 络 计算 具有 较 好 的 性 能 表现 ， 适 用 于 大 规 
模 数 据 集 的 并 行 化 深度 卷 积 神经 网 络 模型 训练 。 
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Abstract: In the large data environment, there are many problems in the parallel deep convolution neural network (DCNN) 
algorithm, such as excessive data redundancy, slow convolution layer operation and poor convergence of loss function. This 
paper proposed a parallel deep convolution neural network optimization algorithm based on the Im2col method. First, the 
algorithm proposed a parallel feature extraction strategy based on Marr-Hildreth operator to extract target features from data 


as input of convolution neural network, which can effectively avoid the problem of excessive data redundancy. Secondly, the 
mu algorithm designed a parallel model training strategy based on the Im2col method. The redundant convolution kernel is 
r removed by designing the Mahalanobis distance center value, and the convolution layer operation speed is improved by 
combining the MapReduce and Im2col methods. Finally, the algorithm proposed an improved small-batch gradient descent 
strategy, which eliminates the effect of abnormal data on the batch gradient and solves the problem of poor convergence of 
the loss function. The experimental results show that IA-PDCNNOA algorithm performs well in deep convolution neural 

network calculation under large data environment and is suitable for parallel DCNN model training of large datasets. 
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0 引言 Google 公司 开发 的 MapReduce 并 行 计算 模型 以 其 易于 
x 编程 、 高 容错 性 、 均 衡 负 载 和 扩展 性 强 等 优点 深 受 广大 学 者 
DCNNII 作 为 深度 学 习 领 域 中 一 类 重要 的 分 类 算法 ， 具 “和 企业 的 青睐 ， 许 多 基于 MapReduce 计算 模型 的 DCNN 算 
有 强大 的 表征 能 力 、 泛 化 能 力 和 拟 合 能 力 ， 效 果 稳定 且 无 须 。 法 也 得 到 了 广泛 的 研究 外 叶 。 文 献 [13] 提 出 基于 MapReduce 
对 数据 做 额外 的 特征 工程 ， 常 被 运用 于 图 像 分 类 说 、 语 音 识 ”的 并 行 化 DCNN 算法 ， 该 算法 采用 分 而 治之 的 思想 ， 通 过 
别 BI、 对 象 检测 和 内、 语义 分 割 隔 、 人 脸 识 别 四 、 自 动 驾 驶 中 等 MapReduce 的 Split 方法 对 数据 进行 划分 ， 构 建 多 个 计算 节 
领域 ， 受 到 人 们 的 广泛 关注 和 深入 研究 。 点 同时 训练 DCNN 网 络 模型 ， 选 取 准 确 率 最 高 的 网 络 模型 
近年 来 ， 随 着 移动 互联 网 的 发 展 以 及 数据 存储 介质 容量 作为 算法 的 输出 ， 实 现 了 DCNN 并 行 化 训练 过 程 。 基 于 此 ， 
的 突破 ， 产 生 了 海量 的 、 多 模 态 的 、 高 价值 的 数据 四， 众多 ”文献 [14] 提 出 并 行 深度 卷 积 神经 网 络 算法 FCNN (Fully CNN 
科研 者 和 公司 尝试 从 中 提取 高 价值 的 信息 ， 但 海量 的 数据 使 。 for processing CT scan image)， 算 法 将 全 视图 转变 为 稀疏 视 
得 DCNN 模型 的 训练 将 面临 大 量 时 间 消 耗 ， 数 据 与 模 态 变 ， 并 通过 高 斯 滤波 器 ， 对 特征 边缘 进行 平滑 处 理 ， 增 强 重 
化 又 将 导致 模型 参数 需要 反复 训练 等 困难 。 因 此 ， 如 何 降低 的 纹理 特征 信息 。 虽 然 算 法 在 将 全 视图 转变 为 稀疏 视图 的 
大 数据 环境 下 DCNN 模型 训练 的 代价 成 为 了 一 个 咪 待 解决 会 加 快 读 取 速 度 ， 但 由 于 稀 琉 视 图 的 特征 结构 变化 ， 导 
的 问题 其 难以 对 特征 进行 筛选 ， 使 得 模型 在 训练 的 过 程 中 会 存在 
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取 图 像 特 生 


提出 特征 相关 


E; b) 特 征 筛选 : 为 进 


指数 rcre (Feature 


个 图 像 块 间 的 相似 度 ， 并 设 定 


相关 性 系数 * ， 通 过 去 除 <e 的 图 像 块 来 减少 数据 中 的 
见 余 特征 。 
1) 特 征 提取 
的 图 像 特征 ， 需 先 对 初始 数据 集 进行 


为 了 获取 到 高 精度 


噪声 去 除 ， 因 此 提出 基于 余弦 相似 度 的 非 
rrab ， 通 过 图 像 在 不 同 区 域 的 


局 部 均值 滤波 器 


相似 性 来 去 除数 据 噪声 ; 
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然后 再 通过 卷 积 核 re Is E eo 的 拉 普 拉 斯 运算 ， 构 奸 


并 寻找 拉 普 拉 斯 方程 的 零 交 叉 来 提取 数据 特征 ， 其 具体 过 程 
为 : 首先 ， 在 目标 图 像 设置 以 像素 点 “为 中 心 的 邻 域 窗口 和 矩 
阵 与 以 像素 点 "为 中 心 的 搜索 窗口 矩阵 ， 使 邻 域 窗口 在 当前 
图 像 中 进行 滑动 ， 通 过 对 比 像素 点 e^ 所 在 和 矩阵 的 余弦 相似 
度 得 到 邻 域 窗口 的 加 权 值 ， 并 根据 权重 值 以 及 各 个 点 本 身 的 
灰 度 值 对 数据 进行 降 噪 处 理 ， 得 到 降 噪 后 图 像 Co: 接着 ， 
设置 大 小 为 3*3 的 卷 积 核 1%»”，， 对 sy 进行 拉 普 拉 斯 运算 ， 
13 3 dy 3E do Hr E neo viuo »-rrb» ; 最后， 判断 当前 节 
点 的 拉 普 拉 斯 方程 的 二 阶 导 数 是 否 为 交叉 零点 ， 且 此 节点 的 


一 阶 导数 处 在 较 大 峰值 ， 若 满足 条 件 则 将 此 节点 保留 ， 否 则 
将 此 像素 点 置 零 ， 然 后 合并 当前 数据 节点 得 到 特征 提取 后 的 
图 像 。 

定理 1 基于 余弦 相似 度 的 非 局 部 均值 滤波 器 rri )。 
CL AT a.b. 分 别 表示 以 像素 点 “为 中 心 的 邻 域 窗口 矩阵 与 以 像 


素 点 "为 中 心 的 搜索 窗口 和 矩阵。 变换 函数 eru 的 计算 公式 
如 下 : 


a 


TT JU 
men dp] 6) 


其 中 2 为 含 噪声 图 像 ，c 为 当前 图 像 数据 。 

WERA 非 局 部 均值 滤波 原理 利用 了 噪声 的 非 相关 性 特征 ， 
设 无 噪声 的 像素 块 的 值 为 ex ， 噪 声 值 为 yx ， 则 与 噪 
P RU Je: BR ERR ERI BLA 00 eec) vos», TETUER DUE 
加 后 取 均 值得 到 po »-Merhns;jm» , W po» 的 期 望 为 
EIP, y - Vk Z$ (Elo; (x, y) Elya y) 。 由 于 像素 块 的 相似 性 ， 
Elax, y) 可 简化 为 o(x,y) ， 当 噪声 为 0 时 ，Ewcm=0， 故 
EIP, y= oy) 。 此 外 ， 由 于 噪声 的 非 相 关 性 ， ec» 的 方差 
为 APPa -etec xr «Me Eho, Bp ocx 无 噪声 ， 方 差 为 
0， 天 PGy 2Yk-olvos X) ， 则 表明 噪声 wy 与 方差 相关 ， 
FrG.b) 通过 减 小 yc 站 来 降低 数据 噪声 。 证 毕 。 

2) 特 征 筛 ; 


di 
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d) For each x, in g, do 

e) x, =FT(a,b). (a.b) € 8; 

f) End For 

g) End Map 

h)  MapReduce.Reduce ( &,& ) 

i) Spilt sg, to block b, 

j For each b,b in g, 

k) Calculate Fcb,b) 

1) Save key-value <y), FCI, y) > 
m) End For 

n) While («6») 

0) if (FC. »«s) 

p) Delete data block where index = x && y 


q) End While 
r) End Reduce 
s) End For 

t) Return batch 


2.2 ”模型 并 行 训练 


在 目前 在 大 数据 环境 下 的 DCNN 算法 中 ， 模 型 的 并 行 


训练 需要 将 特征 图 与 卷 积 核 分 散 到 不 同 的 计 往 


大 


节点 进行 


Dy" 
p 


但 在 构建 并 行 卷 积 运算 的 过 程 中 ， 算 法 难以 得 除 分 散在 各 节 


点 的 元 余 卷 积 核 ， 导 


致 在 大 数据 环境 下 ， 传 统 DCNN 算法 


无 法 解决 卷 积 层 运算 速度 慢 的 问题 。 为 了 解决 此 问题 ， 


本 文 


提出 IM-PMTS 策略 ， 该 策略 主要 包含 两 个 步骤 : a) BRIA 
剪 枝 : 设计 马 氏 距离 中 心 值 mev (Mahalanobis distance 
center value)， 通 过 求解 wpcy 值 来 寻找 与 网 络 模型 中 卷 积 核 


线性 相关 的 向 量 ， 并 计算 此 向 量 到 各 个 卷 积 核 之 间 的 距离 


dst ， 通 过 设 定 阔 值 " BU so 的 卷 积 核 来 减少 网 络 模型 
中 宛 余 参数 ，b) 并 行 Im2col 卷 积 : 
图 映射 成 矩阵 ， 将 矩阵 与 对 应 卷 积 核 存 储 键 值 对 ， 分 发 到 各 


利用 Im2col 算法 将 特征 


计算 节点 进行 矩阵 运算 来 加 快 卷 积 层 的 运算 ， 得 到 运算 卷 积 


在 完成 特征 提取 后 ， 策 略 将 hoch 中 图 像 切 块 ， 并 提出 特 
征 相关 指数 rero» 来 计算 任意 两 个 图 像 块 之 间 的 特征 相似 度 ， 
然后 去 除 e» <e 的 图 像 块 来 实现 数据 中 元 余 特征 的 去 除 ， 

体 过 程 如 下 : 首先 ， 将 相同 类 别 的 图 像 切 分 至 等 大 小 的 
像 块 ， 并 提出 特征 相关 指数 r010 来 计算 任意 两 个 图 像 块 
间 的 相似 度 ， 其 中 *>y 表示 两 个 互 不 相同 图 像 块 ， 接 着 ， 
STEE EDI «o reo» 存储 至 HDFS 中 ， 设 定 并 根据 相关 1 


EON OH 


层 运算 结果 ， 并 将 结果 存 入 HDFS 中 。 


DAS TRUE B 


为 了 减少 卷 积 神经 网 络 中 元 余 卷 积 核 所 产生 的 无 效 计算 ， 
设计 马 氏 距离 中 心 值 wcv 筛 除 当前 卷 积 层 中 元 余 卷 积 核 ， 


系数 * 去 除 键 值 对 中 reo» «5 的 项 ， 减 少 图 像 中 的 见 余 特 征 ; 

最 后 ， 青 次 人 遍历 键 值 对 ， 读 取 HDFS 中 剩余 键 值 对 的 key 来 

获取 元 余 特 征 筛选 后 图 像 块 的 编号 ， 并 将 筛选 后 的 图 像 块 作 

为 卷 积 神经 网 络 的 输入 ， 完 成 数据 的 特征 筛选 。 

定理 2 ”特征 相关 指数 Fere . 已 知 x 和 分别 表示 两 

条 特征 向 量 ，^ 愉 表示 * 和 > 的 期 望 ，cc 表示 * 和 ?的 方差 。 
特征 相关 指数 "ce 的 计算 公式 为 
20.a， 

IET (6) 

证 明 — rer» 是 衡量 * 和 ?之 间 的 特征 相似 度 的 指标 ， 

Wt usn RS RU BAIE, ooo 为 5 和 ?的 方差 ， 当 特征 向 量 

* 在 c.=0 时 ， 卷 积 过 程 在 * 上 的 操作 属于 线性 县 加 ， 无 法 对 

特征 进行 抽取 ， 此 时 ce-o ;， 当 cr*oc*o 且 特征 向 量 * 

和 ?的 特征 相似 时 ， 

算法 1 征 并 行 提取 算法 
输入 :” 批 数据 barch ， 超 参数 。 
输出 : ”特征 提取 后 数据 batch 


Hi) Li : 
a) RunMapRedece ( Patchs ) 


I 


MA 
FCI(x,y) 1, 证 毕 


b) For each g, in batch do 


c) MapReduce .Map ( g,) 


迭代 点 为 xax eV 


进而 加 速 卷 积 层 运算 ， 划 
积 层 所 有 的 卷 积 核 x,x.…x 的 协 方差 矩阵 y 和 均值 *“ ， 构 建 目 
标 函 数 upcv 的 目标 函 
的 三 阶 泰勒 展开 reo x, Vf x0 
$G-x) Vf x), 


体 过 程 为 : 首先 ， 各 节点 计算 卷 


函数 1 ， 接 着 ， 计 算 1% 在 其 驻 点 * 处 


车 当前 二 阶 导数 非 奇异 ， 则 下 一 个 
conwoob ， 若 当前 二 阶 导数 奇异 ， 先 求 


fE vrooa --vroo 确定 搜索 方向 4 ， 在 确定 下 一 个 迭代 点 


x.-xcd , HERF 


1 最 优 ocv 值 ， 最 后 ， 计 算 卷 积 层 中 所 


有 卷 积 核 到 wocv 值 的 距离 as, AERE e, RBY dr<a 的 
卷 积 核 完成 卷 积 核 剪 枝 过 程 。 


定理 3 


所 有 卷 积 核 的 均值 。 


马 氏 距离 中 心 值 wer . 
模型 中 的 卷 积 核 ，s 表示 所 有 卷 积 核 的 协 方差 矩阵 ， 


已 知 X X us 表示 网 络 
“表示 
马 氏 距离 中 心 值 ocv 的 计算 公式 如 下 : 


MDCV = x = min? N(x — uy S7 (x - u) (7) 


证 明 


当 特 征 向 量 x  MDcv 


距离 ， 设 5 为 向 量 组 x,x,…x 的 协 方差 矩阵 ， 
值 ， 其 中 引入 协 方差 矩阵 来 排除 变量 之 间 的 相关 性 的 干扰 ， 


HBI, H rsm ， 


upcv 是 特征 向 量 * 到 特征 向 量 组 x,x,…x 的 最 小 


“为 向 量 组 的 均 


值 时 ， 特 征 向 量 * 就 越 容易 被 特征 向 量 
xao 线性 相关 ， 故 wocv 值 为 表 


示 特 征 向 量 * SUR fil 


向 量 组 x,x…x 的 最 小 距离 。 证 毕 。 


2) 并 行 Im2col 卷 积 
在 完成 卷 积 核 前 枝 后 ， 便 可 结合 MapReduce 计算 框架 
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实现 Im2col 卷 积 的 并 行 运算 ， 其 具体 过 程 为 : 首先 ， 通 过 证 明 ”zws,) 是 数据 s 的 损失 函数 值 的 权重 指标 ， 设 


Im2col 方法 把 输入 特征 图 映射 为 卷 积 计 算 和 矩阵 2， 并 将 每 anse 为 批 数据 大 小 ，: 为 衡量 toco ROBUR, 23 xo se 
张 映射 矩阵 1 与 对 应 的 卷 积 核 存储 键 值 对 <1.x>; 接着 ， 调 时 ， 则 当前 数据 s 的 损失 函数 值 属于 常规 值 ， 故 令 LAw(s)=1 
Map0 函 数 ， 将 键 值 对 中 的 矩阵 1 与 对 应 卷 积 核 的 一 维 向 量 将 其 保留 ， 当 aese 时 ， 则 当前 数据 e 的 损失 函数 值 属于 


EE gr oH 


和 矩阵 相 乘 运算 ， 得 到 卷 积 中 间 结 果 ; 最 后 ， 调 用 Reduce) A 异常 值 ， 故 令 Uw(s)=0。 证 毕 。 
合并 同一 条 数据 的 特征 图 ， 获 得 最 终 输 出 特征 图 w o 定理 5 损失 求 和 梯度 560 。 已 知 7 表示 批 中 所 有 数据 ， 
法 2 模型 并 行 训练 算法 v 表示 数据 s 的 损失 函数 对 于 参数 * 的 梯度 ， ”mw-se 表示 
输入 : 卷 积 核 K ,输入 特征 图 w ES. 批 数据 大 小 。 损 失 求 和 梯度 550 的 计算 公式 如 下 : 
输出 : ”输出 特征 图 ww 。 iso- EE Ws X Aw (10) 
a) RunMapRedece ( K.M.a ) batch _ size 
b) For each k, in K do 证 明 6m 是 批 数据 bach 的 平均 梯度 ， 设 w, 为 数据 8 
c) MapReduce.Map (k.a ) 的 损失 函数 对 于 参数 :的 梯度 ，“m-s 为 批 数据 大 小 ， 当 
d) Calculate MDCV uw(s)=1 时 ， 数 据 s 的 梯度 v 朝 着 最 优 方向 下 降 ; 当 
e) While (Ik.-mMpcv|sa ) uw(s)=0 时 ， 数 据 8 的 梯度 w, 与 最 优 方向 偏差 较 大 ， 不 计 入 
f) Delete k, Loc) 梯度 之 中 。 证 毕 。 
g) End while 2) 参 数 并 行 更 新 
h) End Map 在 获得 批 数据 平均 梯度 后 ， 使 用 误差 反 向 传播 算法 并 行 
i)  MapReduce.Reduce (k.M ) 化 的 对 误差 项 参数 进行 更 新 ， 得 到 参数 并 行 更 新 后 的 网 络 模 
j) 1= Im2col (k.M ) 型 ， 参 数 并 行 更 新 过 程 具体 为 : 首先 ， 计 算 第 /-! 层 卷 积 核 
k) Save key-value «1.K » w^ 所 有 参数 的 梯度 xen" ， 并 将 结果 映射 为 键 值 对 
1) NMM = LxK < 内 ,25536075> 存 入 HDFS 中 ; 接着 ， 计 算 网 络 模型 中 卷 积 
m) End Reduce 核 w^ 参数 的 改变 量 Aw”， 以 此 更 新 第 '-! 层 卷 积 核 的 网 络 
n) End For 参数 ， 最 后 ， 通 过 HDFS 将 更 新 后 参数 同步 至 所 有 计算 节点 ， 
0) Return NM 并 进行 下 一 步 更 新 ， 直 至 网 络 模型 中 所 有 参数 更 新 完成 。 
23 ”参数 并 行 更 新 算法 3 ”参数 并 行 更 新 算法 
目前 大 数据 下 的 并 行 DCNN 算法 中 ， 分 布 式 集群 中 各 输入 : 批 数据 bach ,模型 参数 W , 超 参 7 
节点 首先 进行 正 向 传播 获得 各 卷 积 层 结果 ， 并 将 结果 统一 传 输出 更 新 后 网 络 模型 参数 w 
E Master 节点 进行 聚合 ， 再 通过 反 向 传播 ， 采用 随机 梯 a) RunMapRedece ( baichW,r ) 
度 下 降 法 或 批 梯度 下 降 法 进行 参数 的 更 新 。 然 而 ， 在 实现 梯 b) For each g, in bach do 
度 下 降 的 过 程 中 ， 异 常 节点 的 训练 数据 会 使 得 反 向 传播 过 程 c) Calculate iscm) by using mwe) 
中 的 损失 函数 收敛 震荡 ， 进 而 导致 损失 函数 收敛 性 差 。 为 解 d)  MapReduce.Map (w^.isomy ) 
决 此 问题 ， 提 出 IM-BGDS 策略 ， 该 策略 主要 包含 两 个 步骤: e) End For 
a) 梯 度 构 建 。 提 出 损失 均值 权重 we) (Loss Average Weight) f) For Each «W',Xsem"» do 
来 排除 异常 节点 的 训练 数据 对 批 梯度 的 影响 ， 并 设计 损失 求 g)  MapReduce.Reduce( w',zscoy ) 
和 梯度 55600. (Loss Sum Gradient) 来 构建 批 数 据 平均 梯度 ， h) Calculate aW by using rom 
解决 了 损失 函数 收敛 性 差 的 问题 。 b) 参 数 并 行 更 新 。 在 得 到 批 i) Update w by using AW, 
数据 的 平均 梯度 后 ， 结 合 MapReduce 计算 框架 和 反 向 传播 的 误 j) End Reduce 
差 传导 公式 来 并 行 化 地 计算 误差 ， 实 现 参数 的 并 行 更 新 。 k) End For 
1) 梯 度 构建 1) Return xw 
为 了 排除 异常 节点 的 训练 数据 对 批 梯度 的 影响 ， 设 计 损 2.4 IA-PDCNNOA 算法 的 并 行 化 流程 
失 均值 权重 awe) 和 损失 求 和 梯度 sc 来 解决 损失 函数 收 IA-PDCNNOA 算法 的 并 行 化 流程 具体 实现 步骤 如 下 : 
敛 性 差 的 问题 ， 其 具体 过 程 为 : 首先 ， 根 据 损失 函数 公式 计 a) 在 特征 并 行 提取 阶段 ， 输 入 原始 数据 集 ， 启 动 一 次 
算 批 数据 损失 函数 的 均值 ， 并 计算 批 数据 的 损失 函数 与 此 均 MapReduce 任务 ， 按 照 数 据 类 别 划 分 为 若干 cumk ， 依 次 将 
值 的 差 ， 得 到 损失 均值 权重 Laweo ， 将 结果 映射 为 键 值 对 chunk 中 的 数据 输入 到 mapper 节点 中 执行 MHO-PFES 策略 ， 


«e LAWG)» TFA HDFS 中 ; 接着 ,计算 批 数据 中 每 条 数据 根据 目标 特征 压缩 原始 数据 集 发 送 至 reducer 节点 ， 最 后 将 


的 损失 函数 的 对 当前 参数 5 的 偏 导 w* ， 同 样 将 结果 映射 为 reducer 节点 中 的 目标 特征 保存 至 HDFS。 

键 值 对 <s.w> 存 入 HDFS "P; 最 后 ， 以 为 索引 人 遍历 键 值 b) 在 模型 并 行 训练 阶段 ， 读 取 HDFS 中 的 数据 并 随机 打 

对 <s,mwe)> 和 <s ww>， 构 造 批 数 据 平均 梯度 sc0) ， 获 得 乱 ， 划 分 为 若干 batch ， 启 动 一 个 新 的 MapReduce 任务 ， 依 

当前 参数 的 批 梯度 。 次 将 batch. 中 的 数据 输入 到 mapper 节点 执行 IM-PMTS 策略 ， 
定理 4 损失 均值 权重 awe). CA s 表示 批 数据 中 的 ”进行 卷 积 、ReLU、 池 化 等 操作 ， 得 到 下 一 阶段 特征 图 ， 最 


一 条 数据 ， 160. 表 示 数 据 * 损失 函数 值 ， mense 表示 批 终 得 到 输出 的 预测 值 存 入 HDFS 中 。 
数据 大 小 ， Lario 为 数据 s; 的 损失 函数 值 与 损失 函数 值 均值 c) 在 参数 并 行 更 新 阶段 ，Master 节点 上 读 取 上 一 阶段 
之 差 的 绝对 值 。 损 失 均 值 权重 awe) 的 计算 公式 如 下 : batch 的 输出 的 预测 值 ， 执 行 IM-BGDS 策略 ， 根 据 反 向 传播 
uvie-| LAD(s) <t 8) 公式 求全 连接 层 、 卷 积 层 参数 批 梯度 ， 经 过 多 次 循环 步 又 
© l0 Ap)>r b)c)， 求 解 损失 函数 最 小 值 ， 得 到 最 终 训 练 的 网 络 模型 。 
Y en. IA-PDCNNOA 算法 的 并 行 化 流程 如 图 1 所 示 。 
H.rp: LAD(g;) = m eu —-J (ob), (9) 2.5 算法 时 间 复 杂 度 分 析 
IA-PDCNNOA 算法 的 时 间 复 杂 度 主要 由 特征 并 行 提 取 、 


录用 定稿 


模型 并 行 训练 和 参数 并 行 更 新 三 个 步骤 构成 。 各 部 分 
间 复 杂 度 计算 如 下 : 

a) 特 征 并 行 提取 阶段 是 结合 MapReduce 计算 框架 的 并 行 
单元 运算 结构 ， 其 时 间 复 杂 度 主要 分 为 (a) 并 行 架构 下 的 数 
据 特 征 提 取 ; (pb) 主 节点 对 数据 的 特征 筛选 两 个 部 分 ， 设 样 
本 数 为 x， 集群 节点 数 为 x， 拉 普 拉 斯 最 大 迭代 次 数 为 m ， 
算法 在 数据 特征 提取 阶段 利用 a,b 两 个 滑动 窗口 对 数据 进行 遍 
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3 ”实验 结果 以 及 分 析 


3.1 实验 环境 

为 了 验证 IA-PDCNNOA 算法 的 性 能 表现 ， 本 文 设计 了 
相关 实验 。 实 验 硬 件 包 含 一 台 Master 机 和 七 台 Slaver 机 组 
成 ， 所 有 节点 的 CPU 都 为 AMD Ryzen 7 3800X， 内 存 32G， 
GPU 7j NVIDIA RTX2080Ti， 通 过 1000Mb/s 的 以 太 网 相连 。 


历 ， 并 计算 目标 窗口 4 的 为 交叉 零点 ， 其 时 间 复 杂 度 为 
O(m:n-logn[/k) ， 算 法 在 特征 筛选 阶段 计算 任意 两 个 数据 切片 相 
似 度 的 时 间 复 杂 度 为 202) ， 则 特征 并 行 提取 阶段 的 时 间 复 杂 
度 为 


T, - O(m:n-logn/k +n?) (11) 


图 1 IA-PDCNNOA 算法 并 行 化 流程 
Parallelization flowchart of IA-PDCNNOA algorithm 


Fig. 1 
b) 在 模型 并 行 训练 阶段 ， 算 法 提出 (a) mev 值 的 求解 ; 


(b) 卷 积 并 行 运算 两 个 部 分 ， 设 集群 节点 数 为 x ， 模 型 中 卷 
积 核 数 量 为 2 ， 卷 积 核 尺 寸 为 5， 样 本 数 为 x ， 算 法 在 mcv 
值 求解 的 过 程 需要 求解 卷 积 核 的 标准 差 ， 并 寻找 最 大 线性 相 
关 卷 积 核 ， 其 时 间 复 杂 度 为 0(ps*/k) ， 经 过 上 个 阶段 的 数据 
处 理 ， 算 法 在 卷 积 并 行 运 算 时 只 需要 做 矩阵 乘法 运算 ， 其 时 
间 复 杂 度 为 00?) ， 则 模型 并 行 训练 的 时 间 复 杂 度 为 
T, -O(p:s? [k m) (12) 
c) 在 参数 并 行 更 新 阶段 ， 算 法 提出 了 批 数据 的 梯度 构 
建 ， 设 集群 节点 数 为 ， 模 型 全 连接 输入 的 尺寸 为 “， 
据 梯 度 构 建 的 时 间 复 杂 度 为 Okc*) ， 所 以 ， 参 数 并 行 更 新 
的 时 间 复 杂 度 为 


T, 20(k:c?) (13) 

综 上 ， 本 文 提出 的 IA-PDCNNOA 算法 的 时 间 复 杂 度 为 
Tia_ppcwwos = Ti +T, +7 = O((mn-n-logn p:s?)/k em -k-c?), 

对 于 FCNN04 算 法 ， 该 算法 首先 通过 将 稀疏 视图 转换 为 
全 视图 ， 再 构建 数据 重建 和 处 理 技术 并 行 化 进行 高 精度 模型 
训练 ， 因 此 FCNN 时 间 复 杂 度 为 
Treow 7 O(d:n-logn:s? +n?) (14) 
其 中 * 为 卷 积 核 尺 寸 ， 4 为 算法 迭代 次 数 。 
对 于 SSOCNN035 算 法 ， 该 算法 设计 了 连续 内 存 地 址 读 
取 的 单 跨 步 情况 下 的 im2col 算法 加 速 方 法 ， 并 利用 通用 算 
阵 乘法 对 列 向 量 和 卷 积 核 进行 卷 积 运算 ， 因 此 SSOCNN 时 
间 复 杂 度 为 


Too 7 O(a:n? logn-k[K?) (15) 
其 中 a 为 单 跨 步 数 。 

对 于 MR-FPDCNN 09 算 法 ， 该 算法 将 信息 共享 搜索 策 
各 与 萤火虫 算法 相 结合 来 寻找 网 络 模型 最 优 参数 通过 


MapReduce 并 行 训 练 网 络 模型 ， 因 此 MR-FPDCNN 时 间 复 


Te_rppcwv = O(n:logn+ p: 12)/k) (16) 
其 中 2 为 特征 图 剪 枝 数量 。 
算法 理论 分 析 可 得 IA-PDCNNOA, FCNN, SSOCNN 
以 及 MR-FPDCNN 算法 的 时 间 复 杂 度 ， 在 大 数据 环境 下 ，" 
的 基数 远大 于 其 他 指标 ， 可 知 Onn logn+p:s?)/k+n?+k-c?< 
d:n:logn:s:+m<anmlogn:k/R<(nlogntp:m)/Jk ， 相 比 于 
FCNN、SSOCNN 和 MR-FPDCNN 算法 ， 本 文 提出 的 IA- 
PDCNNOA 算法 在 大 数据 环境 下 有 着 更 为 理想 的 时 间 复 杂 度 。 


实验 的 编程 环境 为 python3.8, TensorFlow 2.3, JDK 1.8, 
Apache Hadoop 3.3, Windows 10 Enterprise 2016 LTSB， 节 点 
配置 如 表 1 所 示 。 

dl 实验 中 节点 的 配置 


Tab. 1 Configuration of nodes in the experiment 
Node Type Node Name IP Configuration 
Master master 192.168.111.1 
Slave slave 1-7 192.168.111.2-8 


3.2 ”实验 数据 

实验 采用 CIFAR10 、CIFAR100 、ImageNet IK 和 
CompCars 数据 集 : CIFAR10 数据 集 包 含 10 个 类 别 ， 由 尺寸 
为 32*32 彩色 图 像 组 成 ， 每 个 类 有 6000 个 图 像 ， 有 50000 
条 训练 集 和 10000 条 测试 集 CIFAR100 数据 集 包 含 100 个 
类 别 ， 由 尺寸 为 32*32 彩色 图 像 组 成 ， 每 个 类 有 600 个 图 像 ， 
每 个 类 各 有 500 个 训练 集 和 100 个 测试 集 ImageNet 是 目前 
世界 上 最 大 的 图 像 识别 数据 库 ，ImageNet 1K 包含 1000 个 类 
别 ，120 多 万 条 训练 集 和 50 000 条 的 验证 集 ， 通 过 边界 填充 
保持 图 像 长 宽 比 ， 将 图 像 调整 为 224*224; CompCars 数据 
集 共 包含 208826 个 车 辆 图 片 ， 共 有 163 个 汽车 品牌 的 1716 


[3 


款 车 辆 型 号 。 数 据 集 的 具体 信息 如 表 2 所 示 。 
表 2 实验 数据 集 
Tab.2 Experimental dataset 
图 片 CIFARIO CIFAR-100 ImageNet IK | CompCars 
数 / 条 60 000 60000 1281 167 208826 
尺寸 /像素 32*32 32*32 224*224 224*224 
类 别 / 类 10 100 1000 1716 
3.8 实验 准备 
本 文采 用 ResNet50 作为 算法 的 训练 网 络 ，ResNet50 fF 


为 神经 网 络 中 具有 跨 层 连接 的 代表 ， 能 够 很 好 的 反映 出 卷 积 
神经 网 络 算法 对 模型 的 优化 效果 。 接 着 为 了 减 小 频繁 读 取 小 
文件 的 开销 ， 将 图 像 转 换 为 灰 度 图 ， 并 通过 MapReduce 算 
法 并 行 化 地 将 数据 集中 的 图 片 转 为 TFRECORD 格式 ， 完 成 
实验 数据 准备 。 
3.4 评价 指标 
实验 主要 通过 模型 的 加 速 比 ，7op-1 准确 率 ， 浮 点 运算 
量 FLOPs(Floating Point Operations) 和 算法 运行 时 间 4 个 评价 
指标 衡量 算法 性 能 ， 加 速 比 和 Top-1 准确 率 定 义 如 下 : 
3.4.1 加 速 比 
加 速 比 是 通过 并 行 计算 以 降低 总 体 的 运行 时 间 而 获得 的 


性 能 提升 的 数值 化 表示 形式 ， 加 速 比 越 大 ， 算 法 并 行程 度 越 
高 ， 定 义 如 下 : 

S, =T,/T, (7) 
其 中 ， 工 为 算法 串 行 运行 时 间 ，/ 为 算法 并 行 运行 时 间 。 


3.4.2 Top -1 准确 率 
Top — 准确 率 是 深度 学 习 中 评价 模型 预测 错误 率 的 重要 指标 ， 
Top-1 准确 率 越 高 ， 模 型 性 能 越 好 ， 定 义 如 下 : 
4CCw 1 -T,/N (18) 
其 中 ， 为 所 以 验证 集中 正确 标签 在 模型 输出 的 最 佳 标 记 中 
的 样本 数 ， YX 为 样本 总 数 。 
3.5 算法 可 行 性 比较 分 析 
为 验证 IA-PDCNNOA 算法 在 大 数据 环境 下 的 并 行 训练 可 


uod 
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行 性 ， 采 用 算法 的 加 速 比 来 进行 衡量 ， 对 IA-PDCNNOA 算法 群 节点 数 的 增多 而 显著 增强 ， 其 适用 于 大 数据 集 进行 并 行 化 
在 CIFAR10、CIFAR100、ImageNet 1K 和 CompCars 数据 集 处 理 ， 有 较 好 的 性 能 。 
上 进行 测试 。 同 时 为 确保 实验 结果 的 准确 性 ， 取 各 算法 平均 Za IA PDCNNOA 
10 次 运行 时 长 来 计算 加 速 比 ， 作 为 最 后 实验 结果 。 实 验 结 mme 
果 如 图 2 Bio. " ps 
n scura EN 
Í ] Í eainiie ' 
24 (a) 各 算法 在 数据 集 CIFAR10 上 的 加 速 比 
图 2 IA-PDCNNOA 算法 在 四 个 数据 集 的 加 速 比 ti 
Fig.2 Speedup ratio of IA-PDCNNOA algorithm in four datasets 2 
从 图 2 可 以 看 出 ，IA-PDCNNOA 算法 随 着 节点 数 的 增加 ， 
其 加 速 比 总 体 呈 现 上 升 趋势 ， 且 随 着 四 个 数据 集 规模 的 增加 `] 
逐步 增长 。 其 中 当 节点 数 为 2 时 ，IA-PDCNNOA 算法 在 四 个 | 
T^ ”数据 集 上 的 加 速 比 差异 较 小 ， 当 节点 数 为 4 时 ， 算 法 相 比 于 一 : | 
一 单 节 点 的 加 速 比分 别 增加 了 2.205、2.417、3.824 14.735; 当 Ne or Nades 
i 节点 数 为 8 时 ，IA-PDCNNOA 算法 在 各 数据 集 上 有 了 显著 提 (b) 各 算法 在 数据 集 CIFAR100 上 的 加 速 比 
六， 分 别 达到 了 6.861. 6.876. 9.828 和 8.915。 这 是 由 于 IA- ZEE TA PDCNNON 


Speedup Ratio 


-nva uono o 


PDCNNOA 算法 设计 了 IM-PMTS SN, RA RSIR NES ” 
均匀 分 布 至 集群 各 计算 节点 ， 在 减少 节点 通信 时 间 的 同时 保 _ 
证 了 数据 的 负载 均衡 ， 极 大 提升 了 算法 的 运行 效率 。 此 外 算 M 
法 还 设计 了 IM-BGDS 策略 ， 排 除了 异常 节点 所 产生 的 数据 i5 
计算 ， 避 兔 了 这 类 数据 的 读 写 与 传输 对 系统 资源 的 消耗 ， 在 1 
定 程度 上 提升 了 算法 的 性 能 ， 随 着 数据 规模 的 增 大 ， 这 种 | 
FH 4 


提升 的 效果 也 逐渐 明显 。 这 也 表明 IA-PDCNNOA 算法 适用 


于 大 数据 环境 下 ， 并 行 DCNN 模型 的 训练 。 : Number of Nodes 
3.6 算法 性 能 实验 分 析 比 较 (co) 各 算法 在 数据 集 ImageNet 1K 上 的 加 速 比 
3.6.1 算法 加 速 比 实验 分 析 o [c oen 


为 验证 IA-PDCNNOA 算法 在 大 数据 环境 中 的 并 行 化 性 J 全 ssocNN 
能 ， 本 文 基 于 CIFAR10 、CIFAR100 ImageNet IK 和 ] 
CompCars 数据 集 ， 将 加 速 比 作为 衡量 指标 ， 分 别 与 MR- 
FPDCNN、SSOCNN、FCNN， 算 法 做 比较 。 同 时 ， 为 确保 
实验 结果 的 准确 性 ， 取 各 算法 平均 10 次 运行 时 长 来 计算 加 
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a 
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速 比 ， 作 为 最 后 实验 结果 。 实 验 结果 如 图 3 所 示 。 

从 图 3(a)(b) 可 以 看 出 ， 在 处 理 CIFAR10、CIFAR100 这 : T 
样 规模 相对 较 小 的 数据 集 时 ， 各 算法 的 加 速 比 随 着 节点 数 的 Number of Nodes 
增加 而 缓慢 增加 ， 其 中 ， 当 集群 节点 数 为 4 时 ，IA- (d) 各 算法 在 数据 集 CompCars 上 的 加 速 比 
PDCNNOA 的 加 速 比 相 比 于 并 行 化 程度 不 高 的 FCNN 和 图 3 各 算法 在 四 个 数据 集 的 加 速 比 
SSOCNN 算法 ， 分 别 低 了 0.325、0.435 和 0.276、0.102; 但 Fig.3 Speedup ratio of each algorithm in four datasets 
在 图 3(c)(d) 中 ， 算 法 处 理 ImageNet 1K, CompCars 这 样 相对 3.6.2 算法 准确 率 实 验 分 析 
较 大 的 数据 集 时 ，IA-PDCNNOA 算法 的 加 速 比 增 速 较 大 ， 为 了 进一步 验证 IA-PDCNNOA 算法 的 训练 效果 ， 使 用 
在 集群 节点 数 为 8 时 分 别 达到 了 9.804 和 8.912， 相 比 MR- Top -1 准确 率 作 为 衡量 指标 评价 算法 的 训练 效果 ， 将 IA- 
FPDCNN、FCNN 和 SSOCNN 算法 分 别 高 出 1.148、4.173、 PDCNNOA MR-FPDCNN., SSOCNN 和 FCNN 分 别 在 


4.652 和 0.965、2.678、2.094。 产 生 这 些 结果 的 原因 是 : 当 CIFAR10、CIFAR100、ImageNet IK 和 CompCars 数据 集 上 进 
IA-PDCNNOA 算法 在 处 理 规模 相对 较 小 的 数据 集 时 ， 数 据 ， 行 训 练 ， 计 算 其 Top-1 准确 率 作 为 实验 结果 ， 实 验 结果 如 图 
分 布 到 各 个 计算 节点 会 导致 各 节点 间 的 通信 时 间 开 销 快速 增 4 所 示 。 

长 ， 通 过 并 行 化 运算 获得 的 运行 速度 提升 极为 有 限 ; 当 IA- 从 图 4(a)(b) 可 以 看 出 ， 在 处 理 CIFAR10、CIFAR100 这 
PDCNNOA 算法 在 处 理 规模 相对 较 大 的 数据 集 时 ， 因 为 其 设 。” 样 规模 相对 较 小 的 数据 集 时 ， 各 算法 的 Top -1 准确 率 均 能 稳 
itf) IM-PMTS 策略 ， 通 过 提出 马 氏 距离 中 心 值 MPCV 对 同 ” 定 在 较 高 的 数值 ， 其 中 ，IA-PDCNNOA 算法 的 Top -1 准确 
层 卷 积 核 剪 枝 ， 减 少 了 卷 积 层 参数 在 网 络 通信 中 的 开销 , 然 — 率 最 高 ， 且 较 早 的 完成 了 收敛 ， 达 到 了 89.72% 和 72.3196, 
后 通过 结合 MapReduce 和 Im2col 方法 并 行 训 练 的 方式 加 速 。 相 比 于 MR-FPDCNN、SSOCNN 和 FCNN 算法 ， 高 了 2.87%、 
卷 积 运算 的 过 程 ， 提 高 了 卷 积 层 运算 速度 ， 并 提升 了 算法 的 。 4.62%、6.48% 和 2.14%、4.57%、3.53%; 但 在 图 4(c)(d) 中 
加 速 比 ， 实 验 表 明 ，IA-PDCNNOA 算法 并 行 化 能 力 随 着 集 算法 处 理 ImageNet 1K、CompCars 相对 较 大 的 数据 集 时 ， 各 
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算法 的 Top-1 准确 率 和 算法 收敛 情况 有 较 大 差异 ， 其 中 ， PDCNNOA, MR-FPDCNN, SSOCNN 和 FONN 的 运行 时 间 
IA-PDCNNOA ERY Top -1 准确 率 在 四 个 并 行 化 算法 中 最 和 FLOPs， 其 中 Baseline 7j ResNet50 模型 在 1/8 数据 负载 量 
高 ， 达 到 了 72.41% 和 69.17% ， 相 比 于 MR-FPDCNN、 下 的 基准 数据 ， 实 验 结果 如 表 3 所 示 。 


SSOCNN 和 FCNN 算法 ， 高 了 2.31%、7.98%、2.85% 和 表 3 各 算法 在 四 个 数据 集 上 的 运行 时 间 和 FLOPs 
2.81%、7.58%、4.84%， 但 其 他 三 个 算法 均 出 现 了 不 同 程度 Tab.3 Running time and flops of each algorithm on four datasets 
难以 收敛 的 情况 。 产 生 这 些 结果 是 : IA-PDCNNOA 算法 提 l Running Reduction of 
js LAT S Í i Dataset Algorithm f FLOPs 
出 IM-BGDS 策略 ， 其 设计 损失 求 和 梯度 LSGT) 构建 小 批量 time/s FLOPs 
数据 梯度 ， 并 通过 误差 反 向 传播 算法 对 参数 并 行 更 新 ， 排 除 Baseline 264 3.8x10° - 
异常 节点 的 训练 数据 对 批 梯度 的 影响 ， 增 强 了 IA- MR-FPDCNN 186 1.97x10? 4896 
PDCNNOA 算法 的 收敛 性 。 因 此 可 以 得 出 ，IA-PDCNNOA emu SSOCNN 261 2.58x10? 3294 
相 较 于 其 他 三 个 并 行 化 算法 有 着 较 高 的 收敛 速度 和 准确 率 ， FCNN 242 2.39x10? 3796 
其 适用 于 大 数据 集 下 的 深度 卷 积 神经 网 络 的 模型 并 行 化 训练 。 IA- 
适用 于 大 数据 集 下 的 深度 卷 积 神经 网 络 的 模型 并 行 化 训练 ioi Ne "T 
Nu PDCNNOA 
80] " Baseline 427 3.8x10? - 
sl dg 从 MR- FPDCNN 316 2.05x10? 459 
J T Y SSOCNN 368  2.87x10° 25% 
Ed | CIFARI00 
& ao. FCNN 357 2.94x10? 2394 
E 
304 IA- 
24 一 bo 281 — 191x10? 50% 
z = PDCNNOA 
TT n Baseline 8.12x104  3.8x10° š 
0 10 20 30 40 50 60 70 80 90 100 
» odi MR- FPDCNN 6.23x10+ 2.62x10? 31% 
a) 各 算法 在 数据 集 CIFAR10 上 的 Top-1 准确 率 ImageNet SSOCNN 8.76x104 3.09x10? 21% 
(a) p 
IK FCNN 1.02x105 — 2.81x10? 2696 
704 
IA- 
60 4.91x104  2.5x10? 34% 
a PDCNNOA 
3 504 
M Baseline 6.72x104 — 3.8«10? = 
El MR-FPDCNN 4.64x10+ 2.49x10? 3496 
n SSOCNN . 7.72«10^ 2.98x10? 22% 
20 —— IA-PDCNNOA CompCars 
E —— MR-FPDCNN FCNN 9.18x10*  2.96x10? 2296 
—— SSOCNN 
—— FCNN IA- 
0 10 20 30 40 50 6 70 8 90 10 3.59x10^  2.41x10? 37% 
epochs PDCNNOA 
(a) 各 算法 在 数据 集 CIFAR100 上 的 Top-1 准确 率 从 表 3 可 以 看 出 ， 在 处 理 CIFAR10、CIFAR100 这 样 规 


模 相 对 较 小 的 数据 集 时 ， 各 算法 运行 时 间 没 有 较 大 的 差距 ， 
但 它们 的 浮 点 运算 量 均 有 不 同 程度 的 减少 ， 其 中 ， JIA- 
PDCNNOA 的 浮 点 运算 量 相 比 于 MR-FPDCNN、SSOCNN 和 
FCNN 算法 ， 分 别 减少 了 5%、21%、16% 和 5%、25%、27%; 
但 在 处 理 ImageNet 1K, CompCars 这 样 较 大 的 数据 集 时 ， 


IA-PDCNNOA 算法 的 运行 时 间 和 浮 点 运算 量 均 优 于 其 他 三 


Yit 


i mew 个 算法 ， 其 中 ，IA-PDCNNOA 算法 的 运行 时 间 相 比 于 MR- 
i CENE o FPDCNN, SSOCNN 和 FCNN 算法 快 了 1.32xl04s 、 
MM UN qd E 3.85x10^s, 5.290x10^s 和 1.05x10^s, 4.13x10^s, 5.59x10's, 
(c) 各 算法 在 数据 集 ImageNet 1K 上 的 Top-1 准确 率 浮 点 运算 量 分 别 减少 了 3%、13%、8% 和 396. 1596. 1596. 


对 比 四 个 算法 在 CIFAR10、CIFAR100、ImageNet 1K 和 
CompCars 数据 集 上 的 运行 时 间 和 浮 点 运算 量 的 变化 趋势 ， 
可 以 看 出 IA-PDCNNOA 算法 随 着 训练 数据 集 的 增 大 ， 其 运 


a 行 时 间 和 浮 点 运算 量 的 减少 在 与 其 他 算法 拉 开 了 较 大 差距 ， 
PN 产生 这 些 结果 是 : IA-PDCNNOA 算法 提出 的 MHO-PFES 策 
dn EN 略 ， 其 通过 提出 特征 相关 指数 PCT) ， 去 除了 数据 中 的 元 

一 mocw 余 特征 ， 并 筛选 数据 的 目标 特征 作为 卷 积 神经 网 络 的 输入 ， 
减少 了 模型 的 浮 点 运算 量 ， 加 快 了 算法 的 运行 速度 。 因 此 可 
RE 以 得 出 ，IA-PDCNNOA 优 于 MR-FPDCNN、SSOCNN 和 

(d) 各 算法 在 数据 集 CompCars 上 的 Top-1 准确 率 FCNN， 适 用 于 大 数据 集 下 的 DCNN 模型 并 行 化 训练 。 
图 4 各 算法 在 四 个 数据 集 上 的 Top-1 准确 率 3.6.4 算法 并 行 方式 性 能 实验 分 析 

Fig.4 Top-l accuracy of each algorithm on four datasets 为 验证 在 大 数据 环境 下 ， 算 法 并 行 方式 对 模型 构建 时 间 
3.6.3 算法 运行 时 间 和 FLOPs 实验 分 析 影响 ， 本 文选 取 基 于 数据 并 行 的 MR-FPDCNN 和 基于 模型 
为 验证 IA-PDCNNOA 算法 在 大 数据 环境 中 算法 执行 速 ” 并 行 的 SSOCNN 算法 ,与 IA-PDCNNOA 进行 比较 ， 算 法 


度 和 模型 优化 效果 ， 本 文 基 于 CIFAR10、CIFAR100、 IA-PDCNNOA 在 正 向 传播 阶段 是 数据 并 行 方式 ， 反 向 传播 
ImageNet IK 和 CompCars 数据 集 ， 分 别 计算 Baseline、IA- ”阶段 是 模型 并 行 方 式 。 比 较 算法 在 CIFAR10、CIFAR100、 


Yit 


O 


ImageNet 1K 和 CompCars 数据 集训 练 至 模型 准确 率 为 70% 


所 需 运 行 时 间 ， 实 验 结果 如 图 5 所 示 。 
10000 
MR-FPDCNN 
SSOCNN 
8000 4 IA-PDCNNOA 
S. 6000 - 
g 
已 3 
g 
E 40004 
5 — 
p 
2000 4 
0 
CIFARIO CIFARI00 ImageNet IK CompCars 
图 5 不 同 并 行 方式 算法 在 四 个 数据 集 的 运行 时 间 


Fig.5 Runtime of different parallel-mode algorithms on four datasets 
从 图 5 可 以 看 出 ， 算 法 在 面 对 CIFARIO, CIFARIOO 这 
样 的 小 规模 数据 集 时 训练 时 间 相 差 不 大 ， 但 在 面 对 
ImageNet IK 、CompCars 这 样 的 大 数据 环境 下 ，IA- 
PDCNNOA 算法 的 运行 时 间 相 比 于 数据 并 行 的 MR-FPDCNN 
和 模型 并 行 的 SSOCNN 分 别 降低 了 1322s、3837s 和 1049s、 
4127s， 可 以 看 出 IA-PDCNNOA 算法 随 着 训练 数据 规模 的 增 
大 ， 训 练 时 间 相 比 于 数据 并 行 的 MR-FPDCNN 和 模型 并 行 
的 SSOCNN 出 现 了 明显 的 优势 。 产 生 这 些 结果 的 原因 是 : 
对 于 数据 并 行 算法 MR-FPDCNN， 由 于 其 将 数据 分 散 至 不 同 
节点 单独 训练 ， 不 同 节点 间 的 模型 参数 没有 共享 ， 导 致 需要 
花费 更 长 时 间 训 练 才能 达到 目标 准确 率 ; 对 于 模型 并 行 算 法 
SSOCNN， 其 在 卷 积 计算 阶段 各 节点 特征 图 合并 使 得 算法 承 
受 了 极 大 的 通信 开销 ， 降 低 了 算法 的 运行 速度 。 相 比 于 数据 
并 行 算法 MR-FPDCNN 和 模型 并 行 算法 SSOCNN, IA- 
PDCNNOA 在 卷 积 计算 的 正 向 传播 阶段 ， 各 节点 分 别 计算 
batch 中 的 特征 图 ， 免 去 了 不 同 节 点 间 的 通信 开销 ; 在 反 向 
传播 阶段 ， 算 法 将 计算 结果 构建 批 梯度 训练 模型 参数 ， 使 得 
IA-PDCNNOA 算法 相 比 于 MR-FPDCNN 和 SSOCNN 算法 ， 
运行 时 间 大 幅度 减少 。 实 验 表 明 ， 相 比 于 数据 并 行 算法 
MR-FPDCNN 和 模型 并 行 算法 SSOCNN，IA-PDCNNOA 的 
混合 式 并 行 更 适用 于 大 规模 的 深度 卷 积 神经 网 络 的 训练 。 


4 ”结束 语 


针对 传统 的 深度 卷 积 神经 网 络 算法 在 大 数据 环境 下 的 不 
足 ， 本 文 提出 一 种 基于 Im2col 算法 的 并 行 深度 卷 积 神经 网 
络 优 化 算法 IA-PDCNNOA。 首 先 ， 提 出 MHO-PFES 策略 ， 
设计 改进 的 非 局 部 均值 滤波 器 77 0- 对 输入 数据 进行 滤波 ， 
并 计算 滤波 数据 的 拉 普 拉 斯 方程 x*” ， 寻 找 拉 普 拉 斯 方程 
的 零 交 叉 来 提取 数据 特征 ， 并 提出 特征 相关 指数 rero 去 除 
元 余数 据 ， 从 而 解决 了 数据 元 余 特征 多 的 问题 ， 然 后 ， 提 出 
IM-PMTS 策略 ， 设 计 马 氏 距 离 中 心 值 wcv 寻找 与 网 络 模型 
中 卷 积 核 线性 相关 的 向 量 ， 并 以 此 对 同 层 卷 积 核 剪 枝 ， 然 后 
通过 结合 MapReduce 和 Im2col 方法 并 行 训练 的 方式 加 速 卷 
只 运算 的 过 程 ， 提 高 了 卷 积 层 运算 速度 ; 最后， 提出 IM- 
BGDS 策略 ， 设 计 损 失 均 值 权 重 ws) 来 排除 异常 节点 的 训 
练 数据 对 批 梯度 的 影响 ， 并 设计 损失 求 和 梯度 60) ， 构 建 
批 数 据 平均 梯度 ， 并 结合 MapReduce 计算 框架 和 反 向 传播 
的 误差 传导 公式 对 参数 并 行 更 新 ， 排 除 异 常 节点 的 训练 数据 
对 批 梯度 的 影响 ， 解 决 了 损失 函数 收敛 性 差 的 问题 。 为 了 验 
证 IA-PDCNNOA 算法 的 性 能 ， 本 文 在 ResNet50 网 络 上 设计 
了 相关 实验 ， 在 CIFAR10、CIFAR100、ImageNet IK 和 
CompCars 数据 集 上 将 IA-PDCNNOA 算法 分 别 于 MR- 
FPDCNN 算法 、SSOCNN 算法 和 FONN 算法 进行 比较 。 最 
终 的 实验 结果 和 实验 分 析 均 反映 出 于 其 他 算法 相 比 ，IA- 
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PDCNNOA 算法 在 处 理 大 数据 时 具有 相对 较 好 的 性 能 表现 。 
虽然 IA-PDCNNOA 算法 在 深度 卷 积 神经 网 络 的 模型 训练 方 


看 取得 进步 ， 但 该 算法 在 预测 准确 率 上 依然 存在 一 定 的 提升 
空间 ， 算 法 的 并 行 性 能 也 有 待 加 强 ， 这 将 是 今后 的 重点 研究 
内 容 。 
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